智能论文笔记

Semantics-Empowered Communication: A Tutorial-cum-Survey

Zhilin Lu , Rongpeng Li , Kun Lu , Xianfu Chen , Ekram Hossain , Zhifeng Zhao , Honggang Zhang

分类：人工智能

2022-12-16

Along with the springing up of semantics-empowered communication (SemCom) researches, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present corresponding ecosystems, including theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content \& channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., reliable and goal-oriented communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate the future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities.

translated by 谷歌翻译

Real2Sim2Real Transfer for Control of Cable-driven Robots via a Differentiable Physics Engine

Kun Wang , William R. Johnson III , Shiyang Lu , Xiaonan Huang , Joran Booth , Rebecca Kramer-Bottiglio , Mridul Aanjaneya , Kostas Bekris

分类：机器人 | 人工智能 | 机器学习

2022-09-13

紧张的机器人由刚性杆和柔性电缆组成，表现出高强度对重的比率和极端变形，使它们能够驾驭非结构化的地形，甚至可以在严酷的冲击力上生存。但是，由于其高维，复杂的动态和耦合体系结构，它们很难控制。基于物理学的仿真是制定运动策略的途径，然后可以将其转移到真实的机器人中，但是建模时态机器人是一项复杂的任务，因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题，本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的，可以在真正的机器人（即离线测量和一个随机轨迹）中进行有限的数据进行训练，并达到足够高的精度以发现可转移的运动策略。除了整体管道之外，这项工作的主要贡献包括在接触点处计算非零梯度，损失函数和轨迹分割技术，该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Contrastive Monotonic Pixel-Level Modulation

Kun Lu , Rongpeng Li , Honggang Zhang

分类：计算机视觉

2022-07-23

连续的一到一对映射是在低级视觉和神经图像翻译中较少研究但重要的任务。在本文中，我们提出了一种称为MonoPix的新配方，这是一个无监督和对比的连续调制模型，并进一步迈出了一个像素级的空间控制，这是至关重要的，但以前无法正确处理。这项工作的关键特征是建模具有新颖的对比度调制框架和相应的单调性约束之间控制信号与域歧视器之间的单调性。我们还引入了具有对数近似复杂性并支持快速域适应的选择性推理策略。在各种连续的映射任务上，包括AFHQ Cat-Dog和Yosemite夏季冬季翻译，对最先进的性能进行了验证。引入的方法还有助于为许多低级任务（如低光增强和自然噪声产生）提供新的解决方案，这超出了一对一训练和推理的长期实践。代码可从https://github.com/lukun199/monopix获得。

translated by 谷歌翻译

Beyond single receptive field: A receptive field fusion-and-stratification network for airborne laser scanning point cloud classification

Yongqiang Mao , Kaiqiang Chen , Wenhui Diao , Xian Sun , Xiaonan Lu , Kun Fu , Martin Weinmann

分类：计算机视觉

2022-07-21

机载激光扫描（ALS）点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现，但他们忽略了接受场的统一性，这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中，为了配置多受感受性的场特征，我们提出了一个新型的接受场融合和分层网络（RFFS-NET）。以新颖的扩张图卷积（DGCONV）及其扩展环形扩张卷积（ADCONV）作为基本的构建块，使用扩张和环形图融合（Dagfusion）模块实现了接受场融合过程，该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础，使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层，并由多层接受场聚集损失（MRFALOSS）驱动，以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层，RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估，我们的RFFS-NET显着优于MF1的基线方法5.3％，而MIOU的基线方法的总体准确性为82.1％，MF1的总准确度为71.6％，MIOU的MF1和MIOU为58.2％。此外，LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示，RFFS-NET可以实现新的最新分类性能。

translated by 谷歌翻译

Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text Spotter

Jingjing Wu , Pengyuan Lyu , Guangming Lu , Chengquan Zhang , Kun Yao , Wenjie Pei

分类：计算机视觉

2022-07-15

典型的文本检测器遵循两阶段的发现策略：首先检测文本实例的精确边界，然后在定期的文本区域内执行文本识别。尽管这种策略取得了实质性进展，但有两个基本的局限性。 1）文本识别的性能在很大程度上取决于文本检测的精度，从而导致从检测到识别的潜在误差传播。 2）桥接检测和识别的ROI种植会带来背景的噪音，并在合并或从特征地图中插值时导致信息丢失。在这项工作中，我们提出了单个镜头自力更生的场景文本sottter（SRSTS），该场景通过将识别解除识别来规避这些限制。具体而言，我们并行进行文本检测和识别，并通过共享的积极锚点架起它们。因此，即使确切的文本边界要检测到具有挑战性，我们的方法也能够正确识别文本实例。此外，我们的方法可大大降低文本检测的注释成本。在常规基准和任意形状的基准上进行了广泛的实验表明，就准确性和效率而言，我们的SRST与以前的最先进的观察者相比有利。

translated by 谷歌翻译

Semantic Segmentation for Point Cloud Scenes via Dilated Graph Feature Aggregation and Pyramid Decoders

Yongqiang Mao , Xian Sun , Wenhui Diao , Kaiqiang Chen , Zonghao Guo , Xiaonan Lu , Kun Fu

分类：计算机视觉

2022-04-11

点云的语义分割通过密集预测每个点的类别来产生对场景的全面理解。由于接收场的一致性，点云的语义分割对于多受感受性场特征的表达仍然具有挑战性，这会导致对具有相似空间结构的实例的错误分类。在本文中，我们提出了一个植根于扩张图特征聚集（DGFA）的图形卷积网络DGFA-NET，该图由通过金字塔解码器计算出的多基质聚集损失（Maloss）引导。为了配置多受感受性字段特征，将建议的扩张图卷积（DGCONV）作为其基本构建块，旨在通过捕获带有各种接收区域的扩张图来汇总多尺度特征表示。通过同时考虑用不同分辨率的点集作为计算碱基的点集惩罚接收场信息，我们引入了由Maloss驱动的金字塔解码器，以了解接受田间的多样性。结合这两个方面，DGFA-NET显着提高了具有相似空间结构的实例的分割性能。 S3DIS，ShapenetPart和Toronto-3D的实验表明，DGFA-NET优于基线方法，实现了新的最新细分性能。

translated by 谷歌翻译

MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Wenbo Li , Zhe Lin , Kun Zhou , Lu Qi , Yi Wang , Jiaya Jia

分类：计算机视觉

2022-03-29

最近的研究表明，在介绍问题中建模长期相互作用的重要性。为了实现这一目标，现有方法利用独立的注意技术或变压器，但考虑到计算成本，通常在低分辨率下。在本文中，我们提出了一个基于变压器的新型模型，用于大孔介入，该模型统一了变压器和卷积的优点，以有效地处理高分辨率图像。我们仔细设计框架的每个组件，以确保恢复图像的高保真度和多样性。具体而言，我们自定义了一个面向内部的变压器块，其中注意模块仅从部分有效令牌中汇总非本地信息，该信息由动态掩码表示。广泛的实验证明了在多个基准数据集上新模型的最新性能。代码在https://github.com/fenglinglwb/mat上发布。

translated by 谷歌翻译

Bamboo: Building Mega-Scale Vision Dataset Continually with Human-Machine Synergy

Yuanhan Zhang , Qinghong Sun , Yichun Zhou , Zexin He , Zhenfei Yin , Kun Wang , Lu Sheng , Yu Qiao , Jing Shao , Ziwei Liu

分类：计算机视觉

2022-03-15

大规模数据集在计算机视觉中起着至关重要的作用。但是当前的数据集盲目注释而没有与样品区分的区分，从而使数据收集效率低下且不计。开放的问题是如何积极地构建大型数据集。尽管先进的主动学习算法可能是答案，但我们在实验上发现它们在分发数据广泛的现实注释方案中是la脚的。因此，这项工作为现实的数据集注释提供了一个新颖的主动学习框架。配备了此框架，我们构建了一个高质量的视觉数据集 - 竹子，由69m的图像分类注释，带有119K类别，带有809个类别的28m对象边界框注释。我们通过从几个知识库中整合的层次分类法来组织这些类别。分类注释比Imagenet22K大四倍，检测的注释比Object365大三倍。与ImagEnet22K和Objects365相比，预先训练的竹子在各种下游任务中实现了卓越的性能（分类的6.2％增长，检测到2.1％的增长）。我们认为，我们的积极学习框架和竹子对于将来的工作至关重要。

translated by 谷歌翻译

CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark

Yuan Yao , Qingxiu Dong , Jian Guan , Boxi Cao , Zhengyan Zhang , Chaojun Xiao , Xiaozhi Wang , Fanchao Qi , Junwei Bao , Jinran Nie

分类：自然语言处理

2021-12-27

实现通用语言情报是自然语言处理的长期目标，标准评估基准发挥基本和指导作用。我们认为，对于通用语言智能评估，基准本身需要全面和系统。为此，我们提出了Cuge，一种中文语言理解和生成评估基准，具有以下特征：（1）分层基准框架，其中数据集主要选择和组织语言能力 - 任务数据集层次结构。（2）多级评分策略，其中基于分层框架提供了不同级别的模型性能。为了促进CUGE，我们提供了一个公共排行榜，可以自定义，以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。

translated by 谷歌翻译